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Аннотация 

Введение. Электронные устройства, способные собирать данные по телеметрии индивидуума, открыли 
перспективы доклинического выявления признаков СОУТ-19. Известные решения предполагают анализ 
информации, которую сложно получить в моменте. Речь идет, например, о состоянии крови или ПЦР-тесте. Это 
существенно ограничивает возможности интеграции алгоритмов с наручными гаджетами. При этом сердечно- 
сосудистая система как объект наблюдения достаточно информативна, съем данных хорошо проработан. В 
статье описана задача детекции ковидных аномалий в ритмограммах. Цель работы — создание математической 
модели на базе алгоритмов машинного обучения для автоматизации процесса выявления ковидных аномалий в 
ритме сердца. Показана возможность интеграции полученных результатов с фитнесс-браслетами и умными 
часами. 

Материалы и методы. В работе задействовали открытый стек технологий: Рушоп, ЗсИ-еаги, Газ ебт. При 
оценке качества моделей для бинарной классификации использовалась метрика Ё\. Изучены 229 ритмограмм 
сердца (кардиоинтервалографий) пациентов с СОУТ-19. Наличие или отсутствие признаков аномалии 
определялось с учетом времени ритмограммы и интервалов между сердцебиениями. Графически показаны 
отклонения, которые могут свидетельствовать о заражении. По итогам разведочного анализа собран перечень 
признаков, указывающих на аномалию. 

Результаты исследования. В результате проделанной работы получена математическая модель, которая 
детектирует специфичные для СОУПТ-19 аномалии сердечного ритма с точностью 83 %. Выявлены и 
ранжированы основные признаки, определяющие прогностическую способность модели. Это текущее значение 
интервала между ударами сердца, производные в последующей и предыдущей точках измерения 
продолжительности сердцебиения, первая производная в текущей точке и отклонение от медианы текущего 
значения длительности АРА-интервала. Первый показатель в этом перечне признан наиболее значимым, 
последний —Й наименее. Для целей машинного обучения оценивался потенциал пяти алгоритмов: 
[зо]анопРогез, ГОВМОазяШег, КапаотРоге{СЛаз1Йег, Ехиа ТгеезСазвег, 5ОРОпеС]аз;5 УМ. 
Визуализированы нормальные и аномальные результаты наблюдений в изолирующих деревьях. Установлен 
параметр, который соответствует вероятности регулярного наблюдения за пределами нормы, и выбрано его 
значение — 0,11. С учетом данного показателя построен график для модели 5СПОпеСаз$5УМ. По набору 
данных с применением техники перекрестной проверки рассчитана метрика качества. Речь идет о ритмограмме 
с временным рядом наблюдений, снятых за один непрерывный интервал времени у одного человека. Описан 
пошаговый процесс получения усредненных значений метрики для каждой модели. При сравнении самый 
высокий показатель зафиксирован у модели ГОВМСИазуШег, наименьшие — у 5СООпеаз5УМ и 
[зо]анопРогез. 

Обсуждение и заключения. Полученная математическая модель занимает мало места в памяти мобильного 
устройства, то есть не предъявляет значимых требований к вычислительным ресурсам. Решение обладает 
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приемлемым качеством детекции для доклинического скрининга связанных с СОУТ-19 сердечно-сосудистых 
нарушений. Алгоритм обнаруживает аномалии в 83 % случаев. Для записи ритмограммы достаточно 4 минут. 
Предлагаемый сценарий использования интегрированного решения лаконичен и легко реализуем. Широкое 
использование разработки может способствовать выявлению СОУТО-19 на ранней стадии. 
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Введение. Изучение влияния СОУТШ-19 на человека остается актуальной задачей. Так, в 2021-2022 гг. по 
данной теме опубликовано более 16 тыс. научных работ. Одна из основных причин смерти ковид- 
положительных пациентов — осложнения в работе сердечно-сосудистой системы (далее — ССС), вызванные 
воздействием коронавируса [1]. Для доклинической диагностики СОУПТ-19 в основном используются два 
метода: биохимический на основе полимеразной цепной реакции (ПЦР-тест) и анализ крови. Необходимые в 
данном случае контакты с медперсоналом (в том числе визиты в медицинские учреждения) затрудняют 
регулярный оперативный контроль и повышают нагрузку на систему здравоохранения. Таким образом, 
представляется актуальным применение современных технологий доклинического контроля ССС для раннего 
выявления признаков СОУГО-19. 

Регулярность контроля могут обеспечить носимые электронные устройства. Наиболее распространенные из 
них — фитнесс-браслеты и умные часы со встроенными датчиками частоты пульса и способностью выполнять 
измерения с высокой дискретностью [2]. Такой подход открывает возможности для анализа потоков данных на 
базе машинного обучения! [3]. 

Цель представленного исследования — создание обучаемой модели, способной выявлять ковидные 
аномалии, опираясь только на данные о ритме сердца. В ряде работ [4—6] рассматриваются подобные задачи, 
однако решения опираются на дополнительную информацию о состоянии крови и другие характеристики. Это 
существенно ограничивает возможности их интеграции с носимыми устройствами, т. к. в моменте невозможно 
ввести в модель результаты анализа крови или мазка для ПЦР-теста. Новизна предложенного решения состоит 
в том, что использовались только данные ритма сердца, которые можно с высокой частотой снимать удобным 
для человека способом и интерпретировать показатели в режиме реального времени. 

Материалы и методы 

Характеристика данных. В работе использовали 229 обезличенных ритмограмм (кардиоинтервалографий) 
пациентов с СОУТ-19. Сведения получены в 2021 году в рамках открытого всероссийского соревнования для 
профессионалов в сфере цифровой экономики «Цифровой прорыв». Фрагмент данных представлен в таблице 1. 


Таблица 1 
Фрагмент набора данных 


Номер Время ВК-интервал между Признак ковидной 
ритмограммы | в миллисекундах | сердцебиениями в миллисекундах аномалии* 
81 0 576 0 
81 568 568 0 
81 1140 572 0 


' Эндогенные аномалии кардиоритма у пациентов с СОУТ-19 / С. А. Пермяков [и др.] // Нелинейная динамика в когнитивных 
исследованиях — 2021 : тр. УП Всерос. конф. Нижний Новгород : Ин-т прикладной физики Российской академии наук, 2021. С. 109-110. 

Е 01а210$15 оЁ СОУТШ-19 апа 1$ сШшиса1 зресиат / Каззе Шшс. // Касе.сот : [сайт]. ОВЫ: 
Брз:/у\у м Каз е.сот/Ча!азе/ешуеш4аа4и/соу!1А19 (дата обращения : 10.09.2022). 
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Номер Время ВК-интервал между Признак ковидной 
ритмограммы | в миллисекундах | сердцебиениями в миллисекундах аномалии* 
176 44332 568 0 
176 44968 636 1 
176 45596 628 0 
*0 — аномалии нет, | — аномалия есть. 


На рис. 1 показана связь ритмограммы (КВ пиегуа1) с электрокардиограммой сердца (ЕСО). 
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Рис. 1. Сопоставление электрокардиограммы и ритмограммы сердца: по горизонтальной оси показано время в секундах, 


по вертикальной для ЭКГ — микровольты 


Во всех ритмограммах из этого набора есть промаркированные аномальные участки. На рис. 2 аномальные 


участки выделены красным пунктиром. По оси х показана продолжительность одного замера ритмограммы в 


миллисекундах, по у — интервал между соседними ударами сердца в миллисекундах. 
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Рис. 2. График ритмограммы № 69: красным пунктиром выделены аномальные участки, 
черными буллитами — аномальные точки 


Каждая ритмограмма представлена своим идентификатором. Продолжительность ритмограмм в 
исследуемом наборе данных различная: 4 минуты в среднем, 31 минута максимум. Каждый замер внутри одной 


ритмограммы имеет метку времени в миллисекундах от начала записи. Продолжительность КК-интервала 
также представлена в миллисекундах. Каждое конкретное значение в ритмограмме позволяет говорить о 
признаках аномалии (0 — нет, | — есть). 2,53 % наблюдений маркированы цифрой 1. Таким образом, набор 
данных имеет сильный дисбаланс классов, что типично для задач обнаружения аномалий. 

В разметке данных встречаются различные подходы к выделению аномальных участков. Как аномальные 


выделялись группы точек в окрестности характерного пика и падения продолжительности ритма сердца: 3-го, 
4-го, 6-го измерений (рис. 2). Не всегда количество точек в окрестности размечено одинаково — слева и справа 
от пика может быть разное количество аномальных точек. Кроме того, выявлены ритмограммы с 
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зашумленными показаниями. Так было при потере связи с гаджетом и замерах при установке или снятии 
прибора. 16 ритмограмм с некорректными данными пришлось исключить из рассмотрения, а разметку 
переделать: 

— у аномального участка выделяется лишь одна точка, характеризующая аномальный фрагмент; 

— аномальные точки обозначены черными буллитами (рис. 2). 

Извлечение признаков. В чистом виде представлен лишь один сигнал — значение интервалов между 
сердцебиениями. Поэтому для уточнения модели подготовили дополнительные признаки на основании 
имеющегося сигнала: отклонение от медианного значения и производные в соседних замерах ритма. Этот 
перечень признаков выбрали после разведочного анализа данных и визуального выявления паттерна в местах, 
соответствующих аномальным участкам. На рис. 2 их обозначили красной пунктирной линией. 

Результаты исследования 

Метрика для оценки качества детекции аномалий. Для оценки качества модели в задаче бинарной 
классификации ввиду дисбаланса классов задействовали метрику РЁ, [7] (1). Она позволяет оценить, насколько 
хорошо построенная модель детектирует редкий класс. В данном контексте под редким классом понимаются 


аномальные по продолжительности сердцебиения —= сердцебиения с аномальным ритмом: 
точность х полнота 
Е =2х 


ОЕ и 

Здесь: 

— точность — доля правильно детектированных моделью аномальных сердцебиений от общего количества 
сердцебиений, которые модель определила как аномальные; 

— полнота (или иными словами — чувствительность) — доля сердцебиений, которые модель верно 
детектировала как аномальные, от общего количества аномальных сердцебиений во всем наборе данных. 

Алгоритмы машинного обучения. В рамках исследования применены пять описанных ниже алгоритмов 
машинного обучения. 

1. зоайопРогезх — алгоритм с неконтролируемым самообучением на базе экстремально 
рандомизированных решающих деревьев [8]. 

2. Таз Отафеп Воозйпе Масбше Сазяйег (ГОВМ!азШНег) — алгоритм градиентного бустинга над 
решающими деревьями [9]. Для повышения скорости работы задействуются две техники: Ога еп(-Базе4 Опе- 
$14е ЗатрНие и Ехсшеуе Ееацие ВипаНп?°. 

3. ВапаотРогезСЛаз1Нег базируется на решающих деревьях и реализует многократный выбор случайного 
подмножества признаков. По ним строятся более простые оценщики —щ деревья решений. Результаты 
агрегируются для получения конечного предсказания [10]. 

4. ЕхцаТтеезСаз; ег аналогичен КапдотРогез аз Шег, однако в нем дополнительно реализован 
случайный выбор границы, по которой происходит ветвление узлов в деревьях решений [11]. 

5. $СРОпеС1аз$УМ“ — линейная версия Опе-СЙазз бирром Уесюг Масьше с использованием 
стохастического градиентного спуска. 

Тзо1вопРоге и $ОООпеСазз5УМ были выбраны ввиду их широкого использования в задачах детекции 
аномалий [12, 13]. ГОВМАазяШег, КапдотЕРогезСазНег и ЕхнаТтеезСазИег достаточно хорошо 
показывают себя в разных задачах, поэтому их тоже задействовали для сравнения результатов. 

Особенность алгоритмов 15091айопРогез и $СООпеСаз53УМ заключается в том, что они не требуют на 
входе четкой разметки аномальных наблюдений, в то время как для остальных использованных в исследовании 
алгоритмов она обязательна. 

[5о]анопРогезЕ базируется на предположении, что при построении изолирующих деревьев аномальные 
наблюдения можно изолировать (отделить) за меньшее количество операций, чем нормальные экземпляры 
наблюдений. Для каждого наблюдения алгоритм вычисляет значение оценки аномальности (апота]у зсоге) по 
формуле: 

_ Ето) 
5(х,п) =2 с®, (2) 


где А(х) — число ребер до экземпляра х в каждом изолирующем дереве решений; Ё (в (х)) — среднее значение А(х) 


на всем наборе изолирующих деревьев; с(п.) — нормализирующая константа для набора данных размером п (3). 


3 оМСВМ: А НзШу ЕЁйс<епЕ Стафеге Воозйпе Гесё\юп Тигее // ммм. писгозой.сот : [сайт]. УВТ: Вирз://Аммлу.пусгозой.сот/еп- 


и5/гезеагсЬ/\ир-сошепИир!юа4$/2017/1 1/12 еб т.раЕ (дата обращения: 10.09.2022). 
* Оше Опе-СМ!азз 5УМ /  $сщИ-еага Чеуе!орегз  (В$О  Шасепзе) //  зсЖи-еагп.оге: [сайт]. УВЫ: № рз://зсКИ- 
1еагп.ого/а ето и]ез/з А.В #юппе-опе-с1аз$-зут (дата обращения: 10.09.2022). 
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2(п-1) 


с(п) =2Нт- 1) - — (3) 
Н(®) = ш(®) +у. (4) 
В уравнении (4) у — постоянная Эйлера, равная 0,57721... 
Если наблюдение х имеет значение оценки аномальности $, близкое к 1, то оно считается аномальным. Если 
5 близко к 0,5, то наблюдение не имеет очевидных признаков аномальности. Если $ близко к 0, то наблюдение 
может считаться нормальным (рис. 3). 
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Рис. 3. Нормальные и аномальные наблюдения в изолирующих деревьях 


$ОРОпеС!аз$5УМ основывается на противоположном относительно [50]айопЕогезЕ подходе. Алгоритм 
определяет границы нормальных наблюдений и все новые наблюдения сопоставляет с границами этой нормы, 
чтобы выявить аномалию. 

Значимость признаков. Оценка степени влияния признаков на прогностическую способность модели 


представлена на рис. 4. 
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Рис. 4. Диаграмма значимости признаков: х — текущее значение интервала; пех{_ 4 — производная в последующей точке 
измерения продолжительности сердцебиения; ргеу_АНР — производная в предыдущей точке измерения продолжительности 
сердцебиения; Ч! — первая производная в текущей точке; теФап_4е\аноп — отклонение текущего значения 
длительности АК-интервала от медианы 


Для расчета числовой оценки значимости использовался встроенный в ГОВМСЙазяШег механизм, 
возвращающий через свойство }{еайиге_ппроптапсеу_ обученной модели массив числовых оценок для каждого 
признака. Значимость в моделях на основе градиентного бустинга над решающими деревьями, как правило, 
рассчитывается на основе индекса Джини (Сии-ипригиу Ш4ех”) [14], используемого в процессе определения 
точек ветвления при обучении модели: 


ста) =1-УЕр?. (5) 


> КагаБфег Е. Сим ппригиу // 1еагпда!азс!.сот : [сайт]. ОВТ: Вирз://м\м\ 1еагп4а(азс1.сот/еоззагу/1-нпригИу/ (дата обращения: 10.09.2022). 
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Здесь Я — набор наблюдений, подходящих по условиям в рассматриваемой точке ветвления, 4 ЕР; К — 
количество классов, представленных во всем тренировочном наборе данных 0; р; — вероятность 
принадлежности наблюдений к классу 1 в рассматриваемой точке ветвления решающего дерева. 

Самыми значимыми оказались следующие признаки: текущее значение интервала (х), производная в 
последующей (пех! _Ч1!) и предыдущей (ргеу_А) точках измерения продолжительности сердцебиения (рис. 4). 
Полный перечень используемых признаков приведен в таблице 2: 


Таблица 2 

Перечень используемых признаков 

№ Признак Описание 

1 х КК-интервал в текущей точке измерения 

2 пех АН Первая производная в следующей точке 

3 ргеу_ЧЕ Первая производная в предыдущей точке 

4 ЧЕ Первая производная в текущей точке 

5 |шеФфап_аемайоп | Отклонение текущего значения длительности АК- 
интервала от медианы в рамках одной ритмограммы 


Сравнение моделей. Для результативности модели $СООпеС1аз55УМ важен подбор параметра пи, который 
соответствует вероятности обнаружения регулярного наблюдения за пределами границы нормы. Иными 
словами, пи определяет верхнюю границу доли ошибок при обучении модели и нижнюю границу доли опорных 
векторов. Для подбора пи с учетом природы имеющихся данных дополнительно оценивалась метрика качества 
при различных значениях указанного параметра (рис. 5). В итоге выбран пи, равный 0,11. 
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Рис. 5. Оценка параметра пи (по горизонтальной оси) для модели 5СДОпеС1а555УМ. 
На вертикальной оси — значения метрики РЁ! 


Для расчета метрики качества на различных моделях использовался весь набор данных с применением 
техники перекрестной проверки. Внутри одной ритмограммы мы имеем временной ряд наблюдений, снятых за 
один непрерывный промежуток времени у одного человека, поэтому следует рассматривать их как 
зависимые [15]. Для разделения данных на обучающие и тестовые наборы применялась следующая стратегия. 
Отобранный набор данных состоит из 213 ритмограмм, помеченных уникальным идентификатором (14). Это 
дает возможность выделить ритмограммы для обучения и тестирования моделей. Набор ритмограмм для теста 
можно случайным образом выбирать по идентификаторам. Ниже описан подход, примененный в 
представленной работе. 

Г. В цикле разделения данных выполняются пять действий. 

1. Фиксируется начальное число для генерации псевдослучайных чисел (зее4) — пр.гап4отп.зееа (а), где 
Гю14 — номер текущего разбиения данных. 

2. Генерируется 42 случайных целочисленных значения в диапазоне от 1 до 213. Так мы получаем 
случайные номера идентификаторов ритмограмм для тестового набора данных. 


$ $СООпеСаз5УМ — @4оситегаНоп. ЗсЖИ-еат  4еуеорез (ВЗР  П/сепзе) — зсЖИ-еагп.оге [сайт]. ПВГ: — Б@рз://зс П&И- 
1еагп.ого/зае/подиез/сепега{е/5Кеаго.Нпеаг_то4е1.5@ООпеС!аз;5УМ.В аи Юеага.Нпеаг_то4е1.5СООпеС1а55$УМ (дата обращения: 
10.09.2022). 
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3. Вносятся в отдельный список номера идентификаторов ритмограмм, которые остались после отбора 
идентификаторов для теста. Их задействуют для тренировочного набора. 

4. На ритмограммах из тренировочного набора обучаются модели, а на ритмограммах из тестового набора 
оцениваются метрики качества прогнозирования. 

5. Записывается значение метрики качества для каждой модели, посчитанной на тестовом наборе 
ритмограмм при текущем разбиении данных. 

П. Шаги 1-5 повторяются для каждого номера разбиения данных. 

Ш. Полученные значения метрики качества усредняются для каждой из моделей. 

Сравнительная оценка усредненной метрики качества прогнозирования для каждой модели приведена в 


таблице 3. 
Таблица 3 
Оценка метрики качества Ё\ 

Модель Метрика Е! * 
ГОВМС!азяШег 0,8328 
КапдотЕогеазяШЙег 0,7638 
ЕхцаТтеезСЛаз ег 0,7369 
$О0Опе а 5УМ 0,0169 
[зо]айопРоге$ < 1е-4 
*Среднее значение при выбранной стратегии 
перекрестной проверки на пяти разбиениях. 


Обсуждение и заключения. Разработана математическая модель обнаружения аномалий в ритме сердца с 
точностью 83 %. По метрике качества ЕЁ, лучшей оказалась модель на базе алгоритма ГОВМаз ег. 
Т5оайопЕоге$ и З@ООпеС!а555УМ на текущих данных показали слабые результаты. 

Предложенную модель можно реализовать в составе программной части носимых персональных смарт- 
устройств. Предлагаемый сценарий использования решения: 

— запись ритмограммы активируется на персональном носимом устройстве через пользовательский 
интерфейс; 

— по окончании запись подается в разработанную модель для анализа; 

— по итогам анализа данных математическая модель выдает уведомление о наличии или отсутствии 
аномалий на экране носимого устройства. 

Отметим, что для записи одной ритмограммы, видимо, достаточно в среднем 4 минут. За это время 
возможно обнаружение ковидных аномалий в ритме сердца. 

Модель занимает в памяти носимого устройства 493 килобайтов, что вполне подходит для практического 
применения. Решение опирается только на информацию о ритме сердца и не задействует факторы, недоступные 
для мобильных персональных гаджетов. 

Повышение точности детекции аномалий предполагает дополнительные изыскания. Их следует 
сфокусировать на разработке уникальных признаков, которые выявляются по исходному сигналу ритма сердца. 
Однако текущее решение уже дает возможность оперативной и легкой оценки вероятности СОУТ-19 на 
ранней стадии. Это наряду с выполнением рекомендаций медиков может дополнительно способствовать 
снижению риска смертности от негативного влияния коронавирусной инфекции на сердечно-сосудистую 
систему. 
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